As a natural extension of the image synthesis task, video synthesis has attracted a lot of interest recently. Many image synthesis works utilize class labels or text as guidance. However, neither labels nor text can provide explicit temporal guidance, such as when an action starts or ends. To overcome this limitation, we introduce semantic video scene graphs as input for video synthesis, as they represent the spatial and temporal relationships between objects in the scene. Since video scene graphs are usually temporally discrete annotations, we propose a video scene graph (VSG) encoder that not only encodes the existing video scene graphs but also predicts the graph representations for unlabeled frames. The VSG encoder is pre-trained with different contrastive multi-modal losses. A semantic scene graph-to-video synthesis framework (SSGVS), based on the pre-trained VSG encoder, VQ-VAE, and auto-regressive Transformer, is proposed to synthesize a video given an initial scene image and a non-fixed number of semantic scene graphs. We evaluate SSGVS and other state-of-the-art video synthesis models on the Action Genome dataset and demonstrate the positive significance of video scene graphs in video synthesis. The source code will be released.
translated by 谷歌翻译
班级失衡对机器学习构成了重大挑战,因为大多数监督学习模型可能对多数级别和少数族裔表现不佳表现出偏见。成本敏感的学习通过以不同的方式处理类别,通常通过用户定义的固定错误分类成本矩阵来解决此问题,以提供给学习者的输入。这种参数调整是一项具有挑战性的任务,需要域知识,此外,错误的调整可能会导致整体预测性能恶化。在这项工作中,我们为不平衡数据提出了一种新颖的成本敏感方法,该方法可以动态地调整错误分类的成本,以响应Model的性能,而不是使用固定的错误分类成本矩阵。我们的方法称为ADACC,是无参数的,因为它依赖于增强模型的累积行为,以便调整下一次增强回合的错误分类成本,并具有有关培训错误的理论保证。来自不同领域的27个现实世界数据集的实验表明,我们方法的优势超过了12种最先进的成本敏感方法,这些方法在不同度量方面表现出一致的改进,例如[0.3] AUC的%-28.56%],平衡精度[3.4%-21.4%],Gmean [4.8%-45%]和[7.4%-85.5%]用于召回。
translated by 谷歌翻译
无监督的强化学习(URL)的目标是在任务域中找到奖励无知的先验政策,以便改善了监督下游任务的样本效率。尽管在下游任务中进行填补时,以这种先前的政策初始化的代理商可以获得更高的奖励,但在实践中如何实现最佳预定的先前政策,这仍然是一个悬而未决的问题。在这项工作中,我们介绍PORTER(策略轨迹集合正规化) - 一种可以适用于任何URL算法的预处理的一般方法,并且在基于数据和知识的URL算法上特别有用。它利用了在预处理过程中发现的一系列政策合奏,并将URL算法的政策移至更接近其最佳先验的政策。我们的方法基于理论框架,我们分析了其对白盒基准测试的实际影响,使我们能够完全控制PORTER。在我们的主要实验中,我们评估了无监督的强化学习基准(URLB)的Polter,该实验由3个域中的12个任务组成。我们通过将各种基于数据和知识的URL算法的性能平均提高19%,在最佳情况下最多可达40%,从而证明了方法的普遍性。在与调谐的基线和调整的polter的公平比较下,我们在URLB上建立了最新的新作品。
translated by 谷歌翻译
深卷积神经网络需要大量标记的数据样本。对于许多现实世界应用,这是一个主要限制,通常通过增强方法对待。在这项工作中,我们解决了在小数据集上学习深神经网络的问题。我们提出的称为Chimeramix的体系结构通过生成实例组成来学习数据的增强。生成模型成对编码图像,结合了由面具引导的功能,并创建了新样本。为了进行评估,所有方法均已从头开始训练,没有任何其他数据。基准数据集上的几个实验,例如CIFAIR-10,STL-10和CIFAIR-100与当前用于小型数据集分类的最新方法相比,Chimeramix的出色性能表现出了出色的性能。
translated by 谷歌翻译
同一场景中的不同对象彼此之间或多或少相关,但是只有有限数量的这些关系值得注意。受到对象检测效果的DETR的启发,我们将场景图生成视为集合预测问题,并提出了具有编码器decoder架构的端到端场景图生成模型RELTR。关于视觉特征上下文的编码器原因是,解码器使用带有耦合主题和对象查询的不同类型的注意机制渗透了一组固定大小的三胞胎主题prodicate-object。我们设计了一套预测损失,以执行地面真相与预测三胞胎之间的匹配。与大多数现有场景图生成方法相反,Reltr是一种单阶段方法,它仅使用视觉外观直接预测一组关系,而无需结合实体并标记所有可能的谓词。视觉基因组和开放图像V6数据集的广泛实验证明了我们模型的出色性能和快速推断。
translated by 谷歌翻译
多摄像机多对象跟踪目前在计算机视野中引起了注意力,因为它在现实世界应用中的卓越性能,如具有拥挤场景或巨大空间的视频监控。在这项工作中,我们提出了一种基于空间升降的多乳制型配方的数学上优雅的多摄像多对象跟踪方法。我们的模型利用单摄像头跟踪器产生的最先进的TOOTWLET作为提案。由于这些Tracklet可能包含ID-Switch错误,因此我们通过从3D几何投影获得的新型预簇来完善它们。因此,我们派生了更好的跟踪图,没有ID交换机,更精确的数据关联阶段的亲和力成本。然后通过求解全局提升的多乳制型制剂,将轨迹与多摄像机轨迹匹配,该组件包含位于同一相机和相互相机间的Tracklet上的短路和远程时间交互。在Wildtrack DataSet的实验结果是近乎完美的结果,在校园上表现出最先进的追踪器,同时在PETS-09数据集上处于校准状态。我们将在接受纸质时进行我们的实施。
translated by 谷歌翻译
Advances in reinforcement learning (RL) often rely on massive compute resources and remain notoriously sample inefficient. In contrast, the human brain is able to efficiently learn effective control strategies using limited resources. This raises the question whether insights from neuroscience can be used to improve current RL methods. Predictive processing is a popular theoretical framework which maintains that the human brain is actively seeking to minimize surprise. We show that recurrent neural networks which predict their own sensory states can be leveraged to minimise surprise, yielding substantial gains in cumulative reward. Specifically, we present the Predictive Processing Proximal Policy Optimization (P4O) agent; an actor-critic reinforcement learning agent that applies predictive processing to a recurrent variant of the PPO algorithm by integrating a world model in its hidden state. P4O significantly outperforms a baseline recurrent variant of the PPO algorithm on multiple Atari games using a single GPU. It also outperforms other state-of-the-art agents given the same wall-clock time and exceeds human gamer performance on multiple games including Seaquest, which is a particularly challenging environment in the Atari domain. Altogether, our work underscores how insights from the field of neuroscience may support the development of more capable and efficient artificial agents.
translated by 谷歌翻译
自然语言理解的关系提取使得创新和鼓励新颖的商业概念成为可能,并促进新的数字化决策过程。目前的方法允许提取与固定数量的实体的关系作为属性。提取与任意数量的属性的关系需要复杂的系统和昂贵的关系触发注释来帮助这些系统。我们将多属性关系提取(MARE)引入具有两种方法的假设问题,促进从业务用例到数据注释的显式映射。避免精细的注释约束简化了关系提取方法的应用。评估将我们的模型与当前最先进的事件提取和二进制关系提取方法进行了比较。与普通多属性关系的提取相比,我们的方法表现出改进。
translated by 谷歌翻译
在过去几年中的自然语言处理(NLP)研究的进展为自动用户交互或改进的数据分析提供了公司的新商业机会。建立复杂的NLP应用需要处理现代机器学习(ML)技术,从而阻碍企业建立成功的NLP项目。我们在应用NLP研究项目中的经验表明,具有质量保证的生产环境中的研究原型在生产环境中的不断整合在软件中建立了信任,并为业务目标提供了便利性和有用性。我们将印章4 NLP介绍为开发NLP应用程序的迭代和增量过程模型。通过邮票4 NLP,我们将软件工程原则与数据科学的最佳实践合并。实例化我们的流程模型允许通过利用模板,公约和实现,使开发人员和数据科学家专注于业务目标来有效地创建原型。由于我们的迭代 - 增量方法,企业可以在每次迭代后将增强版的原型版本部署到他们的软件环境中,最大限度地提高潜在的业务价值和信任,并避免成功的成本永不部署的实验。
translated by 谷歌翻译